Составляем правильно файл robots.txt – или управление индексацией сайта

Что такое ROBOTS.TXT?

Боты большинства поисковых систем перед началом считывания информации с Вашего ресурса в обязательном порядке обращаются к файлу robots.txt для определения, какие файлы можно индексировать, а какие нет. Файл размещается в корневой директории вашего ресурса, и путь к нему будет выглядеть следующим образом: http://musite.com/robots.txt . Имя файла обязательно пишется в нижнем регистре. Отсутствующий или пустой файл robots.txt означает, что к индексации допущено все.

В файл прописываются строки с названием клиентского приложения - User-agent и одной или нескольких строк, начинающихся с директивы Disallow. Для запрета индексации файлов и папок, указанных в Disallow всеми ботами, в строке User-agent подставляется символ «*». Для запрета индексации только одной или нескольким поисковым система указываем нужных ботов. Вот наиболее распространенные, Вы их можете обнаружить у себя в логах. Если при запросе файл был найден и прочитан то, будет выдаваться сообщение со статусом 200, если нет то 404 или 302.
Бот Google – «Googlebot»
Бот Яндекса - «Yandex»
Бот Рамблера - «StackRambler»
Бот Yahoo! - «Yahoo! Slurp»
Бот MSN - «msnbot»

С полным перечнем известных ботов можно ознакомиться здесь: http://www.robotstxt.org/wc/active/html/type.html

Пример 1:

User-agent: *
Disallow: /

Индексация сайта запрещена всем ботам.

Пример 2:

User-agent: *
Disallow:

Всем ботам разрешено полностью индексировать сайт.

Пример 3:

User-agent: *
Disallow: /cgi-bin/

Всем ботам запрещена индексация каталога «cgi-bin».

Пример 4:

User-agent: *
Disallow: /cgi-bin/

User-Agent: Googlebot
Disallow: /download/

User-Agent: Yandex
Disallow: /images/

Всем ботам запрещена индексация каталога «cgi-bin». Боту Google запрещена индексация каталога «download». Боту Yandex запрещена индексация каталога «images».

Пример 5:

User-agent: *
Disallow: /cgi-bin/
Disallow: /katalog/search.php

Всем ботам запрещена индексация каталога «cgi-bin» и файла «search.php» в каталоге «katalog».

Для запрета индексации динамических страниц можно применить следующее:

Пример 6:

User-agent: *
Disallow: /index.php?action=print

Страницы для печати, например /index.php?action=print&id;=5 будут закрыты для индексации, страницы для просмотра, например /index.php?action=view&id;=5 будут доступны. Закрытие таким образом динамических страниц от индексации может оказаться очень полезным при администрировании ресурсов с возможность размещения сообщений без авторизации, поскольку подавляющее большинство желающих автоматически размещать свои сообщения на большом числе ресурсов ( спам ), поиск производят именно через поисковые системы.

Некоторые боты поддерживают директиву Crawl-delay, определяющей время в секундах между успешными запросами документов.

Пример 7:

User-agent: Slurp
Crawl-delay: 5
Disallow: /cgi-bin/

User-agent: *
Disallow: /cgi-bin/

Боту, поддерживающему эту директиву, дано ограничение между запросами не менее 5 секунд. Используется для ограничение числа обращений к ресурсу за период времени, во избежание чрезмерной нагрузки при считывании информации.

Многие вебмастера для обеспечения надежного доступа к ресурсу создают «зеркала» сайта. Бот поисковой системы Yandex учитывает содержимое директивы «Host» для определения основного зеркала.

Пример 8:

User-agent: Yandex
Disallow: /cgi-bin/
Host: www.musite.com

User-agent: *
Disallow: /cgi-bin/

В данном примере основным зеркалом будет являться www.musite.com а не musite.com.

Есть поисковые системы, которые позволяют использование регулярных выражений. Google например, который производит поиск по изображениям, документам формата PDF и т.д., в директиве Disallow поддерживает символы «*» (любая последовательность символов) и «$» (формат документа). Это позволяет запретить индексирование документов определенного формата.

Пример 9:

User-agent: Googlebot
Disallow: *.pdf$

Запрещена индексация документов формата .pdf

Проверить корректность работы файла можно например здесь: http://www.yandex.ru/cgi-bin/test-robots

Источник на материал: Составляем правильно файл robots.txt – или управление индексацией сайта

Поделиться записью